统计推断 Statistical Inference,是研究如何根据样本数据去推断总体数据特征的方法。它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。
统计学中,统计推断与描述统计 Descriptive Statistics相对应。
统计推断的基本问题可以分为两大类,一类是估计问题,另一类是假设检验问题。
本章包括以下内容:
1. 点估计 Point Estimations
2. 区间估计 Interval Estimation
设总体 $X$ 的分布函数的形式已知,但它的一个或多个参数未知,借助于总体 $X$ 的一个样本来估计总体位置参数的值的问题称为参数的点估计问题。
点估计问题的一般提法如下:设总体 $X$ 的分布函数 $F(x;\theta)$ 的形式为已知,$\theta$ 是待估参数。$X_1, X_2, ..., X_n$ 是 $X$ 的一个样本,$x_1, x_2, ..., x_n$ 是对应的一个样本值。点估计问题就是要构造一个适当的统计量 $\hat{\theta}(X_1, X_2, ..., X_n)$,用它的观察值 $\hat{\theta}(x_1, x_2, ..., x_n)$ 作为未知参数 $\theta$ 的近似值。我们称 $\hat{\theta}(X_1, X_2, ..., X_n)$ 为 $\theta$ 的估计量,称 $\hat{\theta}(x_1, x_2, ..., x_n)$ 为 $\theta$ 的估计值。在不致混淆的情况下统称估计量和估计值为估计,并都简记为 $\theta$。由于估计量是样本的函数。因此对于不同的样本值,$\theta$ 的估计值一般是不相同的。
下面介绍两种常用的构造估计量的方法:矩估计法和最大似然估计法
设 $X$ 为连续型随机变量,其概率密度为 $f(x;\theta_1, \theta_2, ..., \theta_k)$,或 $X$ 为离散型随机变量,其分布律为 $P\{X=x\}=p(x;\theta_1, \theta_2, ..., \theta_k)$,其中 $\theta_1, \theta_2, ..., \theta_k$ 为待估参数,$X_1, X_2, ..., X_k$ 是来自 $X$ 的样本。假设总体 $X$ 的前 $k$ 阶矩存在:
$$ \mu_l = E(X^l) = \int_{-\infty}^{\infty} x^lf(x;\theta_1, \theta_2, ..., \theta_k)dx (X连续型) $$$$ \mu_l = E(X^l) = \sum_{x \in R_X} x^lp(x;\theta_1, \theta_2, ..., \theta_k) (X离散型 $$$$ l=1,2,...,k; R_X是X可能取值的范围 $$一般来说,它们是 $\theta_1, \theta_2, ..., \theta_k$ 的函数。
基于样本矩 $A_l=\frac{1}{n}\sum_{i=1}^{n}X_i^l$ 依概率收敛于相应的总体矩 $u^l(l=1,2,...,k)$,样本矩的连续函数依概率收敛于相应的总体矩的连续函数。使用样本矩作为相应的总体矩的估计量,而以样本矩的连续函数作为相应的总体矩的连续函数的估计量。这种估计方法称为矩估计法。矩估计法的具体做法如下:设 $$ \begin{equation} \begin{cases} \mu_1 = \mu_1(\theta_1, \theta_2, ..., \theta_k) \\ \mu_2 = \mu_2(\theta_1, \theta_2, ..., \theta_k) \\ \vdots \\ \mu_k = \mu_k(\theta_1, \theta_2, ..., \theta_k) \end{cases} \end{equation} $$ 这是一个包含 $k$ 个未知参数 $\theta_1, \theta_2, ..., \theta_k$ 的联立方程组。一般来说,可以从中解出 $\theta_1, \theta_2, ..., \theta_k$,得到 $$ \begin{equation} \begin{cases} \theta_1 = \theta_1(\mu_1, \mu_2, ..., \mu_k) \\ \theta_2 = \theta_2(\mu_1, \mu_2, ..., \mu_k) \\ \vdots \\ \theta_k = \theta_k(\mu_1, \mu_2, ..., \mu_k) \end{cases} \end{equation} $$ 以 $A_i$ 分别代替上式中的 $\mu_i, i=1,2,...,k$,以 $$ \hat{\mu_i} = \mu_i(A_1, A_2, ..., A_k), i=1,2,...,k $$ 分别作为 $\theta_i, i=1,2,...,k$ 的估计量,这种估计量称为矩估计量。矩估计量的观察值称为矩估计值。
若总体 $X$ 属离散型,其分布律 $P\{X=x\}=p(x;\theta), \theta \in \Theta$ 的形式已知,$\theta$ 为待估参数,$\Theta$ 是 $\theta$ 可能取值的范围。设 $X_1, X_2, ..., X_n$ 是来自 $X$ 的样本,则 $X_1, X_2, ..., X_n$ 的联合分布律为 $$\prod_{i=1}^n p(x_i;\theta)$$
又设 $x_1, x_2, ..., x_n$ 是相应于样本 $X_1, X_2, ..., X_n$ 的一个样本值。易知样本 $X_1, X_2, ..., X_n$ 取到观察值 $x_1, x_2, ..., x_n$ 的概率,亦即事件 $\{X_1=x_1, X_2=x_2, ..., X_n=x_n\}$ 发生的概率为 $$ L(\theta) = L(x_1, x_2, ..., x_n; \theta) = \prod_{i=1}^n p(x_i;\theta), \theta \in \Theta $$
这一概率随 $\theta$ 的取值而变化,它是 $\theta$ 的函数,$L(\theta)$ 称为样本的似然函数(注意,这里 $x_1, x_2, ..., x_n$ 都是已知的样本值,它们都是常数)。
关于最大似然估计法,我们有以下的直观想法:现在已经取到样本值 $x_1, x_2, ..., x_n$ 了,这表明取到这一样本值的概率 $L(\theta)$ 比较大。我们当然不会考虑那些不能使样本 $x_1, x_2, ..., x_n$ 出现的 $\theta \in \Theta$ 作为 $\theta$ 的估计。再者,如果已知当 $\theta = \theta_0 \in \Theta$ 时使 $L(\theta)$ 取得很大值,而 $\Theta$ 中的其他 $\theta$ 的值使 $L(\theta)$ 取很小值,我们自然认为取 $\theta_0$ 作为未知参数 $\theta$ 的估计值,较为合理。由费希尔(R. A. Fisher)引进的最大似然估计法,就是固定样本观察值 $x_1, x_2, ..., x_n$,在 $\theta$ 取值的可能范围 $\Theta$ 内挑选使似然函数 $L(x_1, x_2, ..., x_n; \theta)$ 达到最大的参数 $\hat{\theta}$,作为参数 $\theta$ 的估计值。即取 $\hat{\theta}$ 使 $$ L(x_1, x_2, ..., x_n; \hat{\theta}) = \max_{\theta \in \Theta}L(x_1, x_2, ..., x_n; \theta) $$
这样得到的 $\hat{\theta}$ 与样本值 $x_1, x_2, ..., x_n$ 有关,常记为 $\hat{\theta}(x_1, x_2, ..., x_n)$,称为参数 $\theta$ 的最大似然估计值。而相应的统计量 $\hat{\theta}(X_1, X_2, ..., X_n)$ 称为参数 $\theta$ 的最大似然估计量。
若总体 $X$ 属连续型,其概率密度 $f(x;\theta), \theta \in \Theta$ 的形式已知,$\theta$ 为待估参数,$\Theta$ 是 $\theta$ 可能取值的范围。设 $X_1, X_2, ..., X_n$ 是来自 $X$ 的样本,则 $X_1, X_2, ..., X_n$ 的联合分布律为 $$\prod_{i=1}^n f(x;\theta)$$
设 $x_1, x_2, ..., x_n$ 是相应于样本 $X_1, X_2, ..., X_n$ 的一个样本值。设随机点 $X_1, X_2, ..., X_n$ 落在点 $x_1, x_2, ..., x_n$ 的邻域(边长分别为 $dx_1, dx_2, ..., dx_n$ 的n维立方体)内的概率近似地为 $$ \prod_{i=1}^n f(x_i;\theta)dx_i $$
其值随 $\theta$ 的取值而变化。与离散型的情况一样,我们取 $\theta$ 的估计值 $\hat{\theta}$ 使上述概率取到最大值,但因子 $\prod_{i=1}^n dx_i$ 不随 $\theta$ 而变,估只需考虑函数
$$ L(\theta) = L(x_1, x_2, ..., x_n; \theta) = \prod_{i=1}^n f(x_i;\theta) $$的最大值。这里 $L(\theta)$ 称为样本的似然函数。若
$$ L(x_1, x_2, ..., x_n; \hat{\theta}) = \max_{\theta \in \Theta}L(x_1, x_2, ..., x_n; \theta) $$则称 $\hat{\theta}(x_1, x_2, ..., x_n)$ 为 $\theta$ 的最大似然估计值,称 $\hat{\theta}(X_1, X_2, ..., X_n)$ 为 $\theta$ 的最大似然估计量。
这样,确定最大似然估计量的问题就归结为微分学中的求最大值的问题了。
在很多情况下,$p(x; \theta)$ 和 $f(x; \theta)$ 关于 $\theta$ 可微,这时 $\hat{\theta}$ 常可从方程 $\frac{d}{d\theta}L(\theta) = 0$ 解得。又因 $L(\theta)$ 与 $lnL(\theta)$ 在同一 $\theta$ 处取得极值,因此,$\theta$ 的最大似然估计值 $\theta$ 也可以从方程 $\frac{d}{d\theta}lnL(\theta) = 0$ 求得,这一方程称为对数似然方程,从对数似然方程求解往往比较方便。
总结:似然性与概率意思相近,都是指某种事件发生的可能性。但是在统计学中,似然性与概率又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。